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摘要 ， 云 计算 可 解决 移动 设备 计算 资源 不 足 的 问题 ， 但 无 法 满足 低 时 延 的 服务 需求 ， 边 缘 计 算 作 为 云 计 
算 技术 的 延伸 ， 可 通过 增强 边缘 网 络 计算 能 力 从 而 为 用 户 提 供 低 时 延 高 质量 服务 。 边 缘 计算 中 ， 需 要 将 
服务 部 署 于 资源 受 限 的 边缘 服务 器 ， 并 根据 需求 合理 分 配 计算 资源 ， 以 提高 边缘 服务 器 资源 利用 率 ， 为 
此 ， 本 文 提出 了 一 种 基于 深度 强化 学 习 的 服务 资源 分 配方 法 ， 利 用 反正 切 函 数 两 次 映射 建立 计算 资源 分 
配 函 数 ， 并 实现 分 配 比例 的 动态 调整 ， 最 后 基于 真实 数据 集 进 行 仿真 实验 ， 实 验 结果 表明 ， 本 文 提出 的 
方法 能 够 在 保证 低 时 延 的 情况 下 ， 合 理 分 配 计算 资源 。 

关键 词 : 移动 边缘 计算 ; 深度 强化 学 习 ; 资源 分 配 

分 类 号 ; TP311.5 


Strategy of Resource Allocation Based on Deep Reinforcement 


Learning in Mobile Edge Computing 


FENG Bei-peng HUANG Yu-ze CAO Yu-hui GUO Zhen-Zhen 
"(School of Information Science and Engineering, Chongqing Jiaotong University, Chongqing 
400074, China) 

Abstract: Cloud computing can solve the problem of insufficient computing resources of 
mobile devices, but cannot meet the service demand of low latency. As an extension of 
cloud computing technology, edge computing can provide users with low latency and high-— 
quality services by enhancing the computing capability of edge networks. ln edge computing, 
services need to be deployed to resource constrained edge servers, and computing resources 
need to be allocated reasonably according to the needs to improve the utilization of edge 
server resources. For this reason, this paper proposes a service resource allocation 
method based on deep reinforcement learning, uses arctangent function twice to map to 
establish computing resource allocation function, and realizes dynamic adjustment of 
allocation ratio. Finally, simulation experiments are conducted based on real data sets, 
The experimental results show that the proposed method can reasonably allocate computing 
resources with low latency. 
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1 引言 


今天 是 万 物 互 联 的 时 代 ， 各 种 移动 设备 纷纷 踏 上 56 网 络 的 高 速 列车 加 入 到 互联 网 ， 导 
致 网 络 上 的 数据 呈 指 数 级 增长 “， 给 网 络 负载 带 来 巨大 的 挑战 ， 且 随 着 时 延 敏感 型 应 用 的 开 
发 和 投入 ， 对 硬件 的 资源 不 断 提 出 新 的 要 求 ”。 在 此 背景 下 ， 移 动 边缘 计算 作为 一 种 新 的 计 
算 模式 被 提出 “， 它 可 以 在 靠近 用 户 附 近 的 位 置 给 无 线 接 入 网 提供 运算 支持 ， 从 而 使 得 更 多 
应 用 的 普及 成 为 可 能 。 但 是 也 应 该 注意 到 ， 边 缘 服务 器 作为 边缘 计算 的 主要 处 理 单 元 它 的 资 
源 也 是 十 分 稀缺 的 ， 尤 其 是 分 布 式 的 特征 使 得 单个 边缘 服务 器 不 可 能 承载 多 个 服务 ， 所 以 当 
用 户 请 求 传 至 边缘 网 络 时 通常 是 由 部 署 有 该 服务 的 服务 器 完成 ， 每 个 服务 器 对 其 所 承载 的 
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服务 分 配 资源 的 大 小 就 会 直接 影响 到 服务 响应 时 延 。 

服务 资源 分 配 的 优化 目标 通常 为 为 减 小 能 耗 和 平均 响应 时 延 “: 在 5G 异 构 网 络 中 提出 
一 种 以 节能 为 目的 的 无 线 电 资源 分 配 的 卸载 方案 ， 该 方法 能 够 适应 复杂 多 变 的 网 络 环境 ， 基 
于 数据 传输 单项 能 耗 模型 进行 优化 ， 在 能 耗 方面 有 较 好 的 表现 ， 但 对 于 服务 时 延 的 优化 略 显 
不 足 ， 用 户 体验 不 好 ; 有 注重 用 户 体 验 ， 在 资源 有 限 的 条 件 下 优化 服务 响应 时 延 的 边缘 服务 
器 资源 的 分 配方 法 ， 但 算法 本 身 复杂 度 较 高 ， 对 应 用 场景 的 要 求 较 为 苛刻 ， 并 不 适用 多 变 的 
移动 边缘 计算 环境 ， 对 云端 -边缘 端 -终端 三 层 架 构 进 行 全 局 优化 的 资源 分 配方 法 通常 收 到 多 
方面 条 件 的 限制 ， 服 务 响应 时 延 满 意 度 难免 差强人意 。 这 其 中 ， 深 度 强化 学 习 算 法 以 其 更 接 
近 人 类 的 思维 方式 ， 智 能 体 通过 与 环境 交互 不 断 试 错 和 训练 的 方式 得 出 最 优 行为 策略 ， 在 解 
决 资源 分 配 问 题 上 ， 不 仅 能 够 充分 发 挥 算法 解决 全 局 问题 的 优势 ， 还 能 适应 不 同 的 移动 边缘 
计算 环境 ， 是 解决 此 类 问题 的 有 效 方式 。 

因此 ， 针 对 移动 边缘 计算 网 络 资源 有 限 又 要 满足 用 户 体验 的 背景 下 ， 提 出 了 基于 深度 强 
化 学 习 的 计算 资源 分 配方 法 ， 该 方法 先 获 得 分 配 资 源 后 的 反馈 ， 经 过 反正 切 函 数 两 次 映 冉 动 
态 调 整 下 一 次 的 资源 分 配 比 例 ， 优 化 服务 平均 响应 时 延 。 


2 系统 建 模 


2. 1 边缘 服务 器 与 服务 模型 

如 图 1 所 示 ， 为 移动 边缘 计算 场景 ， 在 该 场景 中 由 边缘 服务 器 组 成 的 边缘 网 络 为 终端 用 
户 提供 稳定 的 运算 服务 ， 云 端 服务 器 充当 资源 调度 中 心 ， 将 DQN (Deep Q-Learning) 训练 
以 后 的 资源 分 配 决 策 下 发 到 各 边缘 服务 器 。 


边缘 服务 器 集合 X, 可 以 用 一 组 四 元 参数 来 表示 : 


X={2.,0,R (1), (7) (1) 


其 中 四 个 变量 分 别 表 示 边 缘 服 务 器 x 的 计算 资源 、 是 否 部 署 有 服务 》、 在 1 时 际 分 配给 
服务 3》 的 计算 资源 所 占 边缘 服务 器 x 总 资源 的 比例 、 在 1 时 隙 接收 到 的 服务 请 求 》 的 数量 ， 


4 为 0 或 1， 为 1 时 表示 边缘 服务 器 x 部 署 有 服务 》， 人 否则 没有 部 署 服 务 》 。 


服务 用 一 组 二 元 参数 来 表示 : 
六 ={8 (2) 


g,、u, 表示 服务 请 求 数 据 转发 量 和 处 理 所 需 的 计算 资源 。 
边缘 服务 器 的 计算 资源 有 限 ， 任 一 边缘 服务 器 x 所 分 配 的 计算 资源 比例 不 会 超过 自身 : 
DR () sbv (3) 


2. 2 服务 处 理 时 延 模型 
由 于 通常 服务 处 理 结果 的 传 回 数据 量 较 小 ， 因 此 服务 处 理 过 程 中 涉及 到 的 时 延 主 要 包括 
请 求 转发 时 延 和 边缘 服务 器 计算 时 延 。 
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图 1 移动 边缘 计算 架构 图 

当 终 端 用 户 向 边缘 服务 器 x 发 出 服务 请 求 》 以 后 ， 若 边缘 服务 器 部 署 有 服务 》， 则 由 边 
缘 服务 器 计算 处 理 后 将 结果 传 回 ， 该 过 程 包括 终端 与 边缘 服务 器 之 间 的 数据 传输 时 延 和 边缘 
服务 器 的 计算 时 延 ， 可 以 表示 为 : 


(= OE+az z| (4) 


其 中 妆 (0 为 边缘 服务 器 x 在 1 时 际 内 接收 到 的 服务 请 求 》 的 数量 ，bac 为 数据 传输 速 
率 。 当 边缘 服务 器 x 接收 到 终端 用 户 发 出 的 服务 请 求 》 以 后 ， 若 接收 服务 器 没有 部 署 该 服 
务 ， 则 需要 将 该 服务 请 求 转发 至 其 他 部 署 有 该 服务 的 边缘 服务 器 ， 因 此 ， 在 时 际 1 需 要 转发 
的 服务 请 求 》 的 数量 可 以 表示 为 : 


N,()= > (9) () (5) 
则 由 服务 请 求 产生 的 数据 传输 时 延 可 以 表示 为 : 
A (9) 


因此 可 以 得 到 处 理 服 务 请 求 y 的 总 时 延 为 : 


B= a (7) 
我 们 的 目标 是 通过 计算 资源 的 分 配 实现 缩短 服务 平均 啊 应 时 延 ， 问 题 可 以 表示 为 : 
C=mins DD, Bo" () (8) 
on 
mn (t)el[0,1],xe X,yerY. (9) 


其 中 ， 公 式 (9) 限制 了 可 分 配 计算 资源 的 量 。 为 了 求 出 目标 函数 的 解 ， 我 们 用 深度 强 
化 学 习 算法 训练 得 出 。 


2. 3 基于 深度 强化 学 习 的 服务 计算 资源 分 配 算法 

深度 强化 学 习 建 模 通 常 是 基于 马尔 可 夫 决 策 过 程 进行 的 ， 在 本 场景 中 主要 包括 以 下 几 个 
要 素 : 环境 、 状 态 、 动 作 和 奖励 ， 因 此 ， 首 先 需 要 构建 状态 空间 5S、 动 作 空 间 4 和 奖励 函数 
有 R。 


Ss,()={m (0),Z, 400) (10) 


动作 空间 主要 为 每 个 边缘 服务 器 分 配给 相应 服务 》 的 计算 资源 比例 ， 在 我 们 的 算法 中 ， 
边缘 服务 器 < 分 配给 服务 》 计算 资 源 量 不 是 一 次 性 决定 的 ， 而 是 通过 一 次 次 小 比例 的 分 配 得 
到 最 终 分 配 比例 。 值 得 注意 的 是 ， 算 法 需要 通过 每 次 分 配 以 后 的 反馈 来 动态 调整 下 一 次 的 分 
配 大 小 ， 因 此 ， 在 时 际 ! 内 ， 对 于 边缘 服务 器 的 动作 空间 可 以 表示 为 : 
A(t)={AR: (bw),y eY) (11) 
计算 资源 量 每 次 的 分 配 比例 我 们 希望 根据 前 一 步 动 作 的 好 坏 来 动态 调整 ， 如 果 上 步 动 作 
大 大 缩短 了 服务 响应 时 延 ， 则 增 大 一 下 次 分 配给 该 服务 的 计算 资源 量 ， 具 体 由 以 下 实现 : 
At=| C(S,)-C(S,,1S5,,4,)| (12) 


Ah? (ti )=P 二 arctan 说 arctan a (13) 


其 中 C(S,) 表示 在 状态 5, 时 的 服务 平均 响应 时 延 ，C (5,,|5,,A ) 表 示 在 状态 C(5,) 执 行 


动作 4 以 后 得 到 状态 % 时 的 服务 平均 响应 时 延 ， 公 式 〈12) 表示 时 隙 1 与 时 际 1+1 的 服务 执 


行 的 平均 啊 应 时 延 差 ，At 越 大 说 明 执 行动 作 4 缩 短 的 时 延 越 大 ， 则 需要 放大 下 一 次 的 分 配 


比例 ， 反 之 则 缩小 下 一 次 的 分 配 比例 ， 由 于 0< Art， 我 们 通过 公式 (13) 来 实现 这 一 目的 ， 
式 中 己 表 示 初 始 分 配 计算 资源 比例 ， 该 式 通过 反正 切 函数 两 次 映射 ， 能 够 将 下 一 次 的 分 配 比 
例 大 小 限制 在 (0,P) 。 
在 奖励 函数 的 设置 上 ， 由 于 奖励 值 的 大 小 跟 动作 执行 的 价值 有 关 ， 因 此 当 动 作 执 行 没有 
减 小 服务 平均 响应 时 延 时 给 予 该 动作 负 值 ， 否 则 奖励 正 值 ， 奖 励 函 数 可 以 表示 为 : 
-0.1 At=0 


Rs Al >0 0 


其 中 C 为 常数 。 

由 于 我 们 的 目标 是 使 得 服务 平均 响应 时 延 尽 量 小 ， 相 对 的 在 算法 中 表示 为 最 大 化 奖励 
值 ， 这 要 求 每 一 步 动 作 都 是 有 价值 的 ， 因 此 对 于 时 间 步 长 7 的 动作 价值 函数 可 以 表示 为 未 来 
奖励 的 总 和 : 


Q(s,a)=E(D 7R |S,=s,A, =a) (15) 


式 中 ye[0,1] 表 示 折 扣 因 子 ，E 表示 接 下 来 了 时 间 步 长 的 价值 期 望 ， 此 时 可 以 将 最 小 化 服务 平 
均 响 应 时 延 问题 转变 为 寻找 算法 最 大 化 动作 值 问题 : 


K =argmax,.y Q(s,a) (16) 
此 外 ， 为 了 让 算法 随 着 训练 次 数 增 大 服务 平均 啊 应 时 延 收 敛 到 最 优 值 ， 损 失 函 数 设 置 如 下 : 
L(0)= > +ymaxQ(s,a:0)-Q(s,0:0)) (17) 
其 中 s' 表示 在 状态 5 采取 动作 a 以 后 得 到 的 状态 ，D 表示 用 于 存放 执行 每 步 动 作 以 后 训练 元 


组 (s,a,R,s') 的 经 验 池 ， 参 数 9 表 示 神 经 网 络 权 值 ， 用 梯度 下 降 法 更 新 : 


0 


其 中 7 是 学 习 率 ， 在 一 定 步 数 之 后 ， 更 新 参数 9 。 
3 实验 设置 
3.1 实验 参数 与 结果 分 析 


=0 -NL(0) (18) 


表 1 仿真 各 种 数据 参数 


参数 名 称 数据 或 表示 
边缘 服务 器 数量 $ 4 
服务 请 求 数量 开 8 
服务 k 数 据 转发 量 d， [2, 10]GB 
服务 上 所 需 计 算 资源 mm [2, 6]gigacyles 
边缘 服务 器 i 计算 能 力 MM [4, 9]GHZ 
边缘 服务 器 间 传 输 速率 vy。 200Mbps 
贫 焚 策略 参数 s 初始 值 0. 85 
信 禁 策略 参数 s 衰减 值 0. 0004 
折扣 因子 Y 0. 85 
学 习 率 1 0. 0002 


为 了 验证 算法 的 有 效 性 ， 我 们 将 DQN 算法 与 其 他 三 种 基准 算法 做 了 收敛 性 对 比 : 基于 服 


务 请 求 数量 的 资源 分 配方 法 ， 基 于 贪心 策略 的 资源 分 配方 法 和 随机 资源 分 配方 法 。 


2.2 
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图 2 不 同 算法 时 延 收 敛 对 比 图 


从 图 2 中 可 以 看 出 ， 随 着 DQN 算法 和 途 代 次 数 的 增加 ， 训 练 效果 越 来 越 好 ， 最 终 在 600 次 
友 代 之 前 收 和 敛 到 最 优 值 ， 服 务 平均 啊 应 时 延 从 训练 初期 的 1. 6 缩小 到 不 到 1s ， 值 得 注意 的 
是 ，DQN 算法 收敛 值 要 优 于 其 他 基准 算法 ， 这 说 明 深度 强化 学 习 算 法 在 资源 利用 上 有 更 加 的 
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表现 。 
4 结论 


本 文 研究 了 移动 边缘 计算 环境 中 计算 资源 的 分 配 问题 ， 提 出 一 种 基于 深度 强化 学 习 的 移 


动 边 缘 计算 资源 分 配方 法 。 该 方法 设计 了 深度 强化 学 习 中 每 一 步 动 作 分 配 计 算 资 源 量 大 小 ， 
对 服务 执行 平均 响应 时 延 做 出 优化 ， 实 验 表明 ， 该 方法 能 充分 利用 计算 ， 并 能 获得 更 低 的 服 


务 时 延 。 

参 考 文 献 : 

[1] Zhang J, Chen B, Zhao Y, et al. Data security and privacy-preserving in edge computing paradigm: Surve 
y and open issues[J]. IEEE access, 2018, 6: 18209-18237. 

[2] 黄 永 明 , 郑 冲 , 张 征明 等 . 大 规模 无 线 通信 网 络 移动 边缘 计算 和 缓存 研究 [可 . 通信 学 报 ，2021，42 (4) : 44-61. 

[3] Morabito I G. The internet of things: A survey[J]. Computer Networks, 2010. 

[4] Pham Q. V., FangF, Ha V. N., et al. A Survey of Multi-Access Edge Computing in 5G and Beyond: Fundamen 
tals, Technology Integration, and State-of the Ar. IEEE Access, 2020,8:1 16974-117017. 

[5] 梁 广 俊 , 王 群 , 辛 建 芳 , 李 梦 , 许 威 . 移动 边缘 计算 资源 分 配 综述 []]. 信息 安全 学 报 , 2021, 6 (03) :227-256. 

[6] Zhang K, Mao Y M, Leng S P, et al. Energy-Efficient Ofloading for Mobile Edge Computing in 5G Heteroge 
neous Networks[J]. IEEE Access，2016，4: 5896-5907 

[7] You C S, Zeng Y, Zhang R, et al. Asynchronous Mobile Edge Computation Offloading: Energy-Efficient Res 
ource Management[J]. IEEE Transactions on Wireless Communications, 2018, 17(11): 7590-7605 

[8] J. Huang, A. Zhou and S. Wang, “Price-Aware Service Deployment in Hierarchical Mobile-Edge Computing 


[Jj. in IEEE Internet of Things Journal, 2022, pp. 11533-11541. 
(通讯 作者 : 黄 昱 泽 E-mail: huangyz@cqjtu. edu. cn) 


作者 贡献 声明 ”: 


泽 : 提出 移动 边缘 计算 资源 分 配 的 研究 思路 ， 确 定 研究 命题 ; 


冯 北 鹏 : 基于 深度 强化 学 习 算 法 设计 动作 空间 中 反正 切 函 数 两 次 映射 的 资源 分 配 函 数 ， 进 行 实验 ; 


宇 意 ， 郭 珍 珍 : 提供 真实 数据 集 和 分 析 实 验 结 
冯 北 鹏 : 论文 起 草 ; 
黄 明 


3 -37 


泽 : 论文 最 终 版 本 人 


SS 


订 ; 


